فناوري‌هاي بزرگ داده محور

 

شركت‌ها روز به‌روز داده‌هاي بيشتري را ذخيره مي‌كنند تا از جايگاه بهتري برخوردار شوند. داده‌هاي بزرگ اين روزها در مركز توجه شركت‌ها قرار دارد. فناوري منبع‌باز را مي‌توان به‌عنوان قلب تپنده اين فناوري نوين شناخت.

آپاچي هادوپ

هادوپ بستر نرم‌افزاري منبع‌بازي است كه براي نرم‌افزارهاي توزيع‌شده داده محور طراحي شده است. اين بستر توسط Doug Cutting توسعه يافت تا بتواند در موتور جستجوي منبع‌باز Nutch كار كند. براي بهره‌گيري از سيستم پردازش چند ماشينه بستر سخت‌افزاري Nutch، كاتينگ از سيستم فايل توزيع‌شده و تكنيك كاهش نگاشت استفاده كرد كه با كمك همديگر هادوپ را تشكيل دادند. هادوپ نام فيل اسباب‌بازي پسر او است. از طريق كاهش نگاشت، هادوپ داده‌هاي بزرگ را در تكه‌هاي كوچك‌تر و در گره‌هاي شبكه قرار مي‌دهد. اين فناوري هم‌اكنون به‌عنوان محبوب‌ترين واسط ذخيره‌سازي داده‌هاي بزرگ ساخت‌يافته، نيمه‌ساخت‌يافته و بدو ساختار استفاده مي‌شود. هادوپ تحت مجوز آپاچي 0/2 منتشر شده است.

R

زبان برنامه‌نويسي منبع‌باز R براي محاسبات آماري و تصويري طراحي شده است. اين زبان سال 1993، توسط راس ايهاكا و رابرت جنتلمن در دانشگاه آكلند نيوزيلند طراحي و بسرعت به يك زبان لازم در تحليل‌هاي آماري بدل شد. اين زبان را شركتي به‌نام Revolution Analytics پشتيباني مي‌كند و خدمات و مدل‌هاي پشتيباني شبيه سرويس‌هاي رد هت در لينوكس را ارائه مي‌كند. زبان برنامه‌نويسي R تحت مجوز GNU GPL منتشر شده است.

Cascading

كسكيدينگ نام لايه انتزاعي منبع‌بازي است كه براي هادوپ نوشته شده است. اين بستر به كاربران اجازه مي‌دهد جريان‌هاي كاري پردازش داده را با كمك زبان‌هاي مبتني بر JVM در كلاسترهاي هادوپ اجرا كنند. Cascading براي پنهان‌كردن پيچيدگي تكنيك كاهش‌نگاشت طراحي شده است. اين بستر را كريس ونسل طراحي كرده است. از كسكيدينگ براي يافتن مخاطب‌هاي تبليغاتي، تحليل فايل‌هاي گزارش، بيوانفورماتيك، يادگيري ماشين، تحليل‌هاي پيش‌بيني و وب‌ماينينگ استفاده مي‌شود. شركت Concurrent نيز پشتيبان اين بستر است. شركت‌هاي توييتر و Etsy از بزرگ‌ترين شركت‌هايي به‌شمار مي‌روند كه از اين فناوري منتشرشده تحت مجوز GNU GPL استفاده مي‌كنند.

Scribe

اسكرايب، سروري است كه سال 2008 توسط فيس‌بوك منتشر شده است. اين سرور براي جمع‌آوري فايل‌هاي گزارش به‌صورت همزمان از تعداد زيادي سرور طراحي شده است. دليل طراحي اين سرور، قابليت همخواني با گسترش‌پذيري سرورهاي فيس‌بوك بود. اين سرور مي‌تواند روزانه ده‌ها ميليارد پيغام را مديريت كند. اين سرور توسط مجوز آپاچي 0/2 منتشر شده است.

ElasticSearch

شاي بنون، الاستيك‌سرچ را تحت مجوز آپاچي منتشر كرده است. اين نرم‌افزار جستجو كه كاملا مبتني بر REST است، مي‌تواند بدون پيكربندي خاص، به‌صورت لحظه‌اي جواب‌هاي جستجو را بياورد. شركت‌هاي زيادي از جمله موزيلا و StumbleUpon از الاستيك سرچ استفاده مي‌كنند.

Apache HBase

اچ‌بيس كه به زبان جاوا نوشته شده، مدلي از BigTable‌ گوگل است. اين ديتابيس توزيع‌شده غير رابطه‌اي ستوني مي‌تواند روي سيستم فايل هادوپ اجرا شود. ذخيره و بازيابي بدون خطا و دسترسي به تعداد زيادي از داده‌هاي اسپارس از جمله قابليت‌هاي اين ديتابيس است. اچ‌بيس يكي از چند مدل انباره‌هاي داده NoSQL است كه طي سال‌هاي اخير توسعه يافته است. سال 2010، گوگل از اچ‌بيس براي سرويس پيغام‌دهي خود استفاده كرد.

Apache Cassandra

يك انبار داده NoSQL ديگر، كاساندرا كه سيستم مديريت ديتابيس توزيع‌شده است توسط فيس‌بوك منتشر شده تا سيستم جستجو در Inbox هايش را پشتيباني كند. هر چند سال 2010 كاساندرا جاي خود را به اچ‌بيس داد اما هنوز شركت‌هايي از جمله نت‌فليكس از اين ديتابيس استفاده مي‌كنند.

MongoDB

مانگودي‌بي نيز يكي ديگر از انباره‌هاي داده NoSQL است. اين ديتابيس اطلاعات را شبيه اسناد JSON در خود ذخيره مي‌كند. شركت‌هاي بزرگي همچون MTV، Craigslist، Disney، New York Times و Etsy از مانگو استفاده مي‌كنند.





تاريخ : چهار شنبه 31 خرداد 1391برچسب:, | | نویسنده : مقدم |